Day01 - 為什麼需要 LLMOps？與傳統 MLOps 差異 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 1

DevOps

30 天帶你實戰 LLMOps：從 RAG 到觀測與部署系列第 1 篇

Day01 - 為什麼需要 LLMOps？與傳統 MLOps 差異

17th鐵人賽 #llmops #mlops #devops

Hazel

2025-09-15 01:06:35

769 瀏覽

分享至

🔹 前言

過去幾年，大家談 MLOps（Machine Learning Operations）時，重點都放在「如何讓機器學習模型可以產品化與維運」。但隨著 GPT-4、LLaMA、Mistral 等大語言模型（Large Language Models, LLMs）的出現，我們發現：傳統的 MLOps 思維，已經不足以應付 LLM 的特性與挑戰。

於是，「LLMOps」這個詞開始流行，專門針對 LLM 的開發、部署與維運問題。

🔹 在開始之前，必須先瞭解...

這系列適合誰?

如果你是...	想解決...	看完這系列你會...
DevOps/SRE	老闆要我部署 AI,但不知道坑在哪	建立 LLM 監控告警、成本控管機制
後端工程師	會串 ChatGPT API,但不知道如何產品化	完成 RAG 系統,處理錯誤與降級
技術主管	需評估 LLM 導入的技術風險	產出完整的 LLMOps 技術方案

❌ 這系列不包含: 模型訓練、Transformer 原理、深度學習數學
✅ 你需要會: Python 基礎、Docker 基本操作(不需 ML 背景)

30 天完整學習地圖

週次	階段	核心問題	主要產出	DevOps 技能	建議對象
Week 1Day 1-7	基礎建設	- LLM 跟傳統服務有何不同?- RAG 環境跟一般後端差在哪?	✅ 開發環境 Ready第一個 RAG QA Bot	環境準備技術選型向量資料庫	所有讀者：建立共同語言
Week 2Day 8-14	資料處理	- 如何讓 LLM 讀懂公司文件?- 知識會過期怎麼辦（Data Drift 偵測）?	✅ 向量資料庫上線自動化更新流程	ETL 思維資料版本控制Pipeline 編排	後端工程師：實作 RAG Pipeline
Week 3Day 15-21	功能開發	- 如何控制 LLM 行為與成本?- 如何監控輸出品質（幻覺偵測與告警）?	✅ QA Bot 可用完整監控儀表板	Prompt 管理API GatewayObservability	後端工程師與 SRE：API 與監控設置
Week 4Day 22-30	生產維運	- 如何安全部署與持續改善?- 成本如何降低?	✅ 生產環境上線成本改善方案	CI/CD版本治理成本控管	DevOps/SRE 與技術主管：部署與成本計算

💡 學習建議:

每天 30-120 分鐘 (含實作)
每週五檢查該週產出是否完成
建議邊看邊跟著 GitHub Repo 實作
完整程式碼: GitHub 連結

⚠️ 彈性閱讀: Week 1 打基礎後,可依職能挑選 Week 2-4 重點章節

❌ 這系列不適合:

想學 Transformer 原理的 AI 研究者
想做模型訓練/Fine-tuning 的 ML 工程師
沒有 Python/Docker 基礎的人

🔹 傳統 MLOps 的挑戰解法

在傳統 MLOps 中，典型流程是：

資料收集與清洗 → DataOps
特徵工程（Feature Engineering）
模型訓練（Training）
模型部署（Serving）
模型監控（Monitoring & Retraining）

挑戰點：

資料持續變動（Data Drift）
模型效果衰退（Concept Drift）
訓練與推論資源需求高
需要 CI/CD for ML： MLflow, Kubeflow, TFX

🔹 為什麼 LLMOps 不一樣？

大語言模型跟傳統 ML 模型有幾個本質差異：

面向	傳統 ML 模型	大語言模型 (LLM)	帶來的挑戰
資料需求	小到中型資料集，自行蒐集/標註	使用網路大規模語料 (TB 級)	開發者很難自行重新訓練
訓練方式	常常自行訓練或 fine-tune	多數情況使用現成 API (OpenAI, Anthropic, HF)	訓練變成「提示工程 / 輕量調整」
部署模式	部署在內部伺服器或雲端，自己維運	透過雲端 API 或本地大模型（推論資源昂貴）	成本管理與 API 延遲更重要
監控	監控 Accuracy、Latency	還要監控「幻覺率」「毒性」「合規」	評估更偏質化，難自動化
迭代方式	Retrain + Deploy	Prompt / RAG / LoRA	更快，但版本管理複雜

🔍 参考資料:
“From **MLOps to LLMOps: The evolution of automation for AI-powered applications”*（CircleCI，2024），指出，LLMOps 雖然沿用 MLOps 的基礎，但必須額外處理 治理、觀測性、成本控管、語言資料處理與即時響應，這也是為什麼需要新一套思維。

🔹 LLMOps 的核心要素

Prompt & Prompt Template 管理
- 不只是模型 code，而是提示詞也需要版本化。
RAG Pipeline 維運
- 文件切片 → Embedding → 向量資料庫 → 檢索 → 回答。
- 要考慮資料更新、自動重建索引、效能改善。
觀測性 (Observability)
- 除了 latency/cost，還要監控 幻覺 (hallucination)、敏感資料洩漏、不當輸出。
成本與資源控管
- Token 成本 ≠ 免費，API 呼叫次數要控管。
- Caching、Hybrid 模型（小模型先答，大模型 fallback）是常見策略。
安全性與合規
- Prompt Injection、防洩漏、防止濫用（特別是企業內部落地）。

🔹 舉例：客服問答系統的差異

📌 傳統 MLOps 的做法

假設公司要做一個「客服 FAQ 自動回覆系統」：

收集歷史客服對話，整理成 問題–答案 資料集。
用 TF-IDF / XGBoost / BERT 訓練一個分類器，判斷問題屬於哪個類別。
部署模型到 API Server。
每隔幾個月 retrain，避免因新產品上線而答案過時。

👉 特徵：資料量中等、可自己訓練、模型更新靠 retrain。

📌 LLMOps 的做法

如果我們用 LLM（例如 GPT-4o-mini）來解這個問題：

不用訓練模型，直接丟 prompt：「你是客服助手，回答以下 FAQ 問題」。
為了避免「亂回答」，要加上 RAG Pipeline：
- 客戶問題 → embedding → 向量資料庫檢索 → 找到最相關文件 → 塞進 prompt。
要做的維運工作是：
- Prompt 管理（避免工程師改 prompt 後效果變差）。
- 資料更新（新 FAQ 要即時進向量庫）。
- 成本監控（每次 call API 都會花錢）。
- 輸出檢測（避免回答「我們有 UFO 保固服務」這種幻覺）。